ByteScout PDF Extractor SDK

软件截图:
ByteScout PDF Extractor SDK
软件详细信息:
版本: 9.0.0.3079 更新
上传日期: 15 Aug 18
开发: ByteScout
许可: 共享软件
价格: 10.00 $
人气: 193
尺寸: 596 Kb

Rating: 3.3/5 (Total Votes: 4)


        适用于Windows软件开发人员的PDF Extractor SDK:PDF到文本,PDF到XML,PDF图像,阅读PDF信息,PDF到CSV for Excel。

Bytescout PDF Extractor SDK允许将PDF转换为文本,PDF转换为XML,PDF转换为CSV,从PDF中提取图像,在.NET和ActiveX界面中提取有关PDF文件的信息,而无需任何其他软件。


优点:
 将PDF转换为纯文本(如果您转换PDF格式的报纸,可以按照列进行操作) - 包括隐形文本提取;
 通过读取给定矩形的单元格将PDF格式的表格转换为Excel(CSV);
 将PDF中的表格转换为XML文件;
 提取PDF文件元数据(标题,作者,描述)并获取有关该文件的其他信息(页数,加密与否);
 从PDF文档中提取嵌入的图像(在ASP.NET,VB.NET,C#,VB6和VBScript中);
 DocumentMerger和DocumentSplitter接口和类,用于合并和拆分PDF文档;
不需要安装Adobe Reader或任何其他PDF阅读器软件;
 提供.NET和ActiveX接口;
 使用100%托管的C#代码制作。
    

此版本中的新功能

版本9.0.0.3079:按字体名称,字体大小和颜色添加了对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。

8.7.0.2980版中的新功能

按字体名称,字体大小和颜色添加对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
在8.6.0.2911版本中改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。

什么是新的

按字体名称,字体大小和颜色添加对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
在8.2.0.2699版本中改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。

什么是新

版本8.2.0.2699可能包含未指定的更新,增强功能或错误修复。

8.0.0.2528版中的新功能

  • 按字体名称,字体大小和颜色添加对提取内容的过滤。
  • 将OCR引擎更新到最新版本。从“tessdata”文件夹更新语言文件。
  • 改进文本提取。
  • 改进了表格数据中的行分组。
  • 改进了性能。
  • 改进了XFA表单提取。
  • 改进了TableDetector。
  • 修复了PDF解析问题。
  • 修正了JBIG图像解码。
  • ImageExtractor:固定的每页图像提取。
  • MultimediaExtractor:对嵌入式MPEG音频进行固定提取。
  • TextExtractor:修复了非工作的RemoveHyphenation属性。
  • 7.0.0.2474版中的其他小改进和错误修复。
  • 新功能

    版本7.0.0.2474:

    • 添加了新的DocumentPrinter实用程序类,允许以静默方式打印PDF文档(无需任何用户对话框)
    • 添加了新的JSONExtractor类
    • 为DocumentSplitter.Split()方法添加了覆盖,允许为生成的文件指定输出文件夹
    • 修复了DocumentSplitter中的多线程错误
    • tableDetector现在尊重由SetExtractionArea()方法设置的提取区域
    • 提取类中的新属性:ExtractionColumns - 包含检测到的列的坐标; CustomExtractionColumns - 允许覆盖列检测
    • GetPageRect *方法没有考虑页面轮换。
      修复了安装程序中导致以前安装的某些文件干扰更新的问题
    • 重新进行了注册检查。现在库不会抛出异常,但如果您错过了或输入错误的RegistrationName和RegistrationKey,则在演示模式下工作
    • PDF Multitool:将最近的文档列表添加到“打开PDF文档”按钮
    • PDF Multitool:现在可以调整选择大小
    • PDF Multitool:添加了提取JSON功能
    • PDF Multitool:改进的表检测器UI
    • PDF Multitool:大大提高了字体渲染质量
    • PDF Multitool:在上下文菜单中添加了调试选项“显示检测到的提取列”,以在当前页面上显示检测到的列。仅在对当前显示的页面运行任何提取后变为可见
    • PDF Multitool:修复了32位Windows上的字体渲染问题
    • 其他小改进和错误修复

    版本6.30.0.2421中的新功能

    版本6.30.0.2421:

    • 添加了TextComparer实用程序类(仅适用于.NET 4.0程序集),允许比较两个PDF文档中的文本并生成报告。
    • 改进了对ICC颜色配置文件的支持。
    • 对嵌入字体的处理不力。
    • 改进了AttachmentExtractor。
    • 修正了XMLExtractor.SaveXMLToStream()方法。
    • 修复了使用OCRCacheMode.WholePage选项时提取的文本复制。
    • 其他错误修复和改进。

    版本6.20.2354中的新功能

    版本6.20.2354:

    • PDF到文本,PDF到CSV,PDF到XML功能改进
    • 新提取视频,提取音频示例
    • CSV和XML提取器改进了对
    • 中空列的表的支持
    • 用于从PDF中提取视频和音频的新MultimediaExtractor
    • 新属性PageDataCaching
    • new“MemoryCareProcessingOfHugeFiles”示例
    • 在尝试处置已经处理过的页面时修复了空例外
    • XLSExtractor:改进字体支持
    • SkipInvisibleText现在跳过剪切的文本(不可见)
    • 文字输出渲染改进
    • XFDF Extractor:添加了对复选框的支持
    • 改进了图像输出以支持更多子格式
    • 改进了Unicode文本处理

    版本6.11.2149中的新功能

    版本6.11.2149:

    • 批处理样本已更新,以显示Reset()方法的使用
    • 为Pages Extraction添加了C ++源代码示例
    • DocumentMerger添加Merge2(inputfile1,inputfile2,outputfile)方法来合并2个文件
    • XLS Extractor小错误修复程序
    • PDF Multitool现在允许启用/禁用文本,图像,矢量图层,添加文本提取的高级设置
    • XML,CSV,表格提取改进了对列中具有emtpry单元格的表的支持
    • .ExtractShadowLikeText属性改进:更好地过滤类似阴影的文本

    版本6.10.2136中的新功能

    版本6.10.2136:

    • PDF到XML,PDF到CSV,PDF到文本功能得到改进
    • PDF到XLS命令行示例添加(基于vbscript)
    • PDF到HTML SDK添加新的.DetectHyperLinks属性(默认情况下为TRUE)以启用/禁用文本中的自动链接检测
    • 新的SearchablePDFMaker(可用于PRO许可证)将PDF转换为可搜索的PDF文件
    • 提取器中的新属性:ThinkingFontNames,ConsideFontSizes,TakingFontColors,CFG文件中的ConsideVerticalBorders
    • 标题列检测(当AutoAlighHeaderToColumns = true时)得到改进
    • .DetectLinesInsteadOfParagraphs替换为新的.LineGroupingMode来控制如何将行合并为段落
    • 重要! PDF To XML修复了文本对象的Y坐标不正确的长时间问题(指向左下角而不是左上角)
    • .TableXMinIntersectionRequiredInPercents和.TableYMinIntersectionRequiredInPercents属性已添加
    • 添加了C ++源代码示例
    • XML Extractor修复了PreserveFormatting = true模式中缺少的空列
    • 对某些PDF文件中的颜色进行微小修复
    • 添加了对多种OCR语言的支持
    • PDF Multitool GUI:将复制到剪贴板按钮添加到TXT,CSV,XML和光栅渲染器对话框
    • XLSExtractor:添加PageToWorksheet属性以启用/禁用每页生成单独的工作表
    • new .TextEncodingCodePage属性
    • PDFViewerControl:添加ValidateContextMenu,允许用户将自定义项添加到上下文菜单
    • PDF查看器控件:添加属性ShowTextObjects,ShowImageObjects,ShowVectorObjects
    • XMLExtractor现在为已识别的文本添加“OCRConfidence”属性
    • PDF / A检查功能(测试版)
    • 根据原始布局改进控件和文本检查和对齐。问题是由解析时控件中Y坐标的移位引起的:这是不正确的。正确的方法是shif ...
    • XML Extractor已更新:现在为复选框和文本字段生成CONTROL标记
    • 将当前目录更改为临时目录
    • 更好地支持复选框,radioboxes,editboxes,comboboxes
    • 现在允许部分信任呼叫者

    版本5.80.1781中的新功能

    版本5.80.1781:

    • PDF到XML,PDF到CSV,PDF到文本功能已更新
    • OCRMode现在提供9种模式
    • .DetectLineInsteadOfParagraph现在效果更好。将其设置为False以捕获表格单元格中的多行文本!
    • PDF控件支持改进
    • FDF和XFDF数据提取

    版本5.10.1747中的新功能

    版本5.10.1747:

    • PDF到XML,PDF到CSV,PDF到文本功能得到改进
    • 现在支持从文本控件中提取文本
    • XML提取器现在将字体样式,大小,名称,文本坐标添加到标记中
    • 添加了用于OCR使用的ASP.NET示例
    • 新属性OCRLanguageDataFolder指定“tessdata”文件夹的位置
    • 改进了对PDF文件的支持
    • 改进了对旋转文本的支持
    • 更新了源代码示例
    • 更新了文档
    • 小改进和修复

    版本5.00.1626中的新功能

    版本5.00.1626:

    • 添加了OCR(图像中的文本)功能:现在您可以从嵌入的图像中提取文本并修复损坏的文本
    • 使用CSV和XML提取程序修复的问题在某些设置中缺少最后一列
    • 改进了对损坏的PDF文件的支持
    • 现在支持使用单词匹配模式的多行搜索文本搜索
    • 现在可以使用连字符和不同的行搜索文本:查看新的源代码示例查找带连字符的文本
    • 新属性.RTLTextAutoDetectionEnabled(默认为false)自动检测RTL语言
    • 改进了PDF Viewer GUI演示
    • 小改进和修复

    要求

    .NET Framework 2.0或更高版本

    限制

    Nag屏幕,输出水印

    支持的操作系统

    类似的软件

    显影剂的其他软件 ByteScout

    意见 ByteScout PDF Extractor SDK

    评论没有发现
    添加评论
    打开图片!